2025.10.31 | Emu3.5统一预测时空；扩散提示驱动机器人

Update: 2025-10-31

Description

本期的 15 篇论文如下：

[00:26 ] 🌍 Emu3.5: Native Multimodal Models are World Learners（Emu3.5：原生多模态世界模型让AI看懂并预测未来）

[01:04 ] 🤖 Exploring Conditions for Diffusion models in Robotic Control（探索扩散模型在机器人控制中的条件化策略）

[01:42 ] 🎬 Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark（视频模型已准备好做零样本推理了吗？基于MME-CoF基准的实证研究）

[02:22 ] ⚡ Kimi Linear: An Expressive, Efficient Attention Architecture（Kimi线性：一种富有表现力的高效注意力架构）

[02:55 ] 🧮 AMO-Bench: Large Language Models Still Struggle in High School Math Competitions（AMO-Bench：大语言模型在高中数学奥赛级难题前仍举步维艰）

[03:35 ] 🕺 The Quest for Generalizable Motion Generation: Data, Model, and Evaluation（可泛化动作生成之路：数据、模型与评测）

[04:17 ] 🌐 Surfer 2: The Next Generation of Cross-Platform Computer Use Agents（Surfer 2：下一代跨平台计算机使用智能体）

[04:42 ] 🌍 OmniX: From Unified Panoramic Generation and Perception to Graphics-Ready 3D Scenes（OmniX：从统一全景生成与感知到可渲染3D场景）

[05:21 ] 🤝 The Era of Agentic Organization: Learning to Organize with Language Models（智能体组织时代：用语言模型学会协同）

[05:57 ] 🧠 Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning（监督式强化学习：从专家轨迹到逐步推理）

[06:32 ] 🕹 Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games（智能体能征服网络吗？探索 ChatGPT Atlas 在网络游戏中的能力边界）

[07:10 ] 🏥 EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis（EHR-R1：面向电子健康记录分析的推理增强型基础语言模型）

[07:55 ] 📄 OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation（OmniLayout：基于LLM的粗到细通用文档版面生成）

[08:38 ] 🎯 MIRO: MultI-Reward cOnditioned pretraining improves T2I quality and efficiency（MIRO：多奖励条件预训练提升文本到图像生成质量与效率）

[09:09 ] 🤖 Magentic Marketplace: An Open-Source Environment for Studying Agentic Markets（Magentic市集：一个用于研究智能代理市场的开源环境）

</figure>

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Comments

In Channel

【周末特辑】11月第1周最火AI论文 | 循环模型省参强推理；Concerto 2D-3D自监督涨点

2025-11-0111:53

2025.10.31 | Emu3.5统一预测时空；扩散提示驱动机器人

2025-10-3110:09

2025.10.30 | 看图写码7B逆袭；视频思维RL破局

2025-10-3011:29

2025.10.29 | 通义深度研究报告；小模型折记忆胜671B巨模型

2025-10-2908:14

2025.10.28 | Point Transformer无标对齐长空间；代码递归统一粗细粒度

2025-10-2811:05

2025.10.27 | DeepAgent一步推理+ToolPO；视频即提示DiT秒控百种语义

2025-10-2710:29

【周末特辑】10月第4周最火AI论文 | 内部概率+投票剪尾，RPC省样本提精度

2025-10-2613:26

2025.10.24 | AdaSPEC挑40% token提速两成；AutoPage 10美分生成交互网页

2025-10-2410:39

2025.10.23 | 线性注意力显存降十倍；动态裁剪PPO稳提分

2025-10-2310:46

2025.10.22 | LightMem压缩记忆千倍提速12倍；闭环世界模型微调8万数据反超巨兽

2025-10-2211:14

2025.10.21 | 模型不懂光影折射；小模型也能写报告

2025-10-2110:06

2025.10.20 | RPC剪枝提速保准；OmniVinci小数据跨模态称王

2025-10-2011:11

【周末特辑】10月第3周最火AI论文 | 量化噪声变探索，单卡跑RL；冻结编码器放语义，DiT生成新纪录

2025-10-1813:30

2025.10.17 | AI眼镜预判式服务；视频生成补想象力

2025-10-1708:40

2025.10.16 | UniMoE一统语音音乐；注意力图点亮大模型推理

2025-10-1610:13

2025.10.15 | 像素级自监督ViT刷新生成基准；多智能体评测网文翻译新标尺

2025-10-1510:38

2025.10.14 | 量化误差变奖励，单卡训32B；面向多模态大模型的音视频评测基准

2025-10-1411:24

2025.10.13 | 桌面交互预训练解锁机器人潜能；统一模型赋予相机空间想象力

2025-10-1310:10

【周末特辑】10月第2周最火AI论文 | 递归小模型刷爆推理榜；未来经验点亮零奖励学习

2025-10-1211:39

2025.10.10 | 早期经验的Agent Learning；图文交错反思链跃升至24.9%

2025-10-1010:00

00:00

2025.10.31 | Emu3.5统一预测时空；扩散提示驱动机器人

#box-pro-ellipsis-176205103758647{-webkit-line-clamp:2;}2025.10.31 | Emu3.5统一预测时空；扩散提示驱动机器人

2025.10.31 | Emu3.5统一预测时空；扩散提示驱动机器人

2025.10.31 | Emu3.5统一预测时空；扩散提示驱动机器人